浅谈中日韩统一表意文字(CJK Unified Ideographs)

您所在的位置:网站首页 中日韩 汉字 浅谈中日韩统一表意文字(CJK Unified Ideographs)

浅谈中日韩统一表意文字(CJK Unified Ideographs)

2023-11-02 02:47| 来源: 网络整理| 查看: 265

本文章是关于中日韩统一表意文字(CJK Unified Ideographs)的,本意仅仅是介绍一些概念,以方便各位认识。至于技术细节,IRS的具体运作,汉字信息处理,以及其他等等,或许等有机会的时候再谈一谈。

我们这里可以给中日韩统一表意文字(CJK Unified Ideographs,本文简称CJK),或者简称汉字(Chinese Characters, Han Characters)下一个定义:中文、日文、朝鲜文/韩文,以及越南文中的成系统的语素文字。

 

各种标准下的“次”字

有关“中日韩”:

中文包括了各类汉语使用者所使用的中文变体,主要区别是简体中文与繁体中文,此外还包括了一些壮字。仅有日文和朝鲜文/韩文(下文单使用“韩文”一词)中的汉字在内,而日文中的假名,包括琉球文中的假名,不在CJK里。韩文中的谚文也不在CJK里。越南文中的汉字在后来也被纳入,既包括通用的汉字,也包括自用的喃字。

 

实际上的成员名单(缩写与全称):

中国(G, China)

香港特别行政区(H, Hong Kong Special Administrative Region)

日本(J, Japan)

大韩民国(K, Republic of Korea)

朝鲜民主主义人民共和国(KP, Democratic People’s Republic of Korea)

澳门特别行政区(M, Macao Special Administrative Region)

马来西亚(MY, Malaysia)

SAT大藏经文本数据库委员会(SAT, SAT(Saṃgaṇikīkṛtaṃ Taiśotripiṭakaṃ) Daizōkyō Text Database Committee)

台北市电脑商业同业公会(T, Taipei Computer Association)

英国(UK, United Kingdom)

Unicode联盟(UTC, Unicode Consortium)

越南(V, Vietnam)

 

本来想要放张汉字文化圈的地图的,因为地图原因姑且放张东亚地形图

一些问题:

假名和谚文呢?除了有些符号之类中日韩混在一起,假名和谚文是单独编码的。假名的编码就如同拉丁字母的编码一般。而简单来说,谚文的处理方式是先把谚文字母分别编码,然后再把初声×中声×终声排列组合的所有结果(一万多个)编码,最后用户输入前者,前者的组合再映射为后者。

为什么叫CJK不是CJKV?当然可以叫CJKV,但没有必要,越南语早已不使用汉字。

为什么中国是G?因为最开始中国大陆的编码是GB 2312。GB是国标的拼音首字母。

为什么没有新加坡?新加坡自1976年采用了中国大陆的简化字标准。实际上的确有些新加坡汉字被收入,字源被标记为GS。

什么是SAT大藏经文本数据库委员会?来自日本,提供了一些佛经用字。

 

有关“统一”:

Unicode采用了汉字等同(Han unification)的策略,给不同地区使用的相同汉字相同编码。

Unicode旨在为文字(Script,例如俄语和乌克兰语使用了同一套Script,即西里尔字母;而日语有两套Script,即汉字和假名)和其字符(Character,例如拉丁字母中的ABC)编码,而非它们的特定形状,即字形(Glyph,例如Times New Roman的a和宋体a)。

各种字形的a,顺带一提书写体a(本图中下)被单独编码了

对于拉丁字母、希腊字母、西里尔字母来说,它们共享许多形状相似的字母,比如第一个字母(Aa, Αα, Аа)几乎一模一样。但是在Unicode之前,它们早已分开印刷,分开编码,即便它们来源相同,其中一种的使用者也会觉得其他两种十分陌生。同时,统一这三种文字会产生大小写的混乱。因此三者是单独编码的。

而就汉字来说(在不考虑简繁的情况下),汉字长期被认为是单一的文字,来自一个地区的汉字使用者能够认出另一个地区使用的汉字。早期的汉字编码也将各地区的汉字共同编码。同时,共同编码能够方便用户使用汉字搜索其他地区的内容,而不必使用繁复的转换系统。因此CJK进行了汉字等同。

 

一些问题:

汉字等同是完全的吗?不是。如果一个汉字的不同字形在某个地区被认为是不同的汉字(通常来说就是在某个早期的标准里被赋予了不同编码),那么即便实际上它们就是同一个字,也不会进行汉字等同。例如户、戶、戸。

为什么汉字等同之后,还能看到大陆繁体,港台繁体和日本汉字的区别?上一个问答是其中的一个可能性。对于通常的已经统一编码的汉字来说,字形的不同主要是靠字体的不同来实现的。目前已经可以使用变体选择符(Variation selector),在必要时选择某个编码汉字的具体字形,但是需要相关字体支持。

简繁问题是如何处理的?汉字大致可以分为三组:传承字,或称繁体字;简化字,即《通用规范汉字表》里的汉字;日本新字体,即日本通行的字体,多有略字。汉字等同主要是在传承字内部,如大陆传承字(繁体和部分简体),香港繁体,台湾正体,韩国汉字,日本传承字(旧字形和部分新字形)等。简化字一般单独编码,日本新字体有些与简化字共同编码(其中特别的例子是,新字体里由藝简化来的芸和简化字里由蕓简化来的芸被等同了),有些与传承字共同编码,有些单独编码。

简体字和繁体字之间是如何转换的?以简转繁为例,分为两种方式:一种是依靠字体来转换,优点是能很好地对应原有简体字的编码,缺点是容易造成转换错误(如皇后变成了皇後);另一种则是把简体字直接替换成繁体字,但容易产生兼容问题。

 

人犯的错误机器也会犯

有关“表意文字”:

首先,汉字不是表意文字(Ideogram)。如今表意文字的定义是指具有意义的图形符号,例如道路交通标志,也可改称形意符号。

事实上,汉字其实是语素文字(Logogram)。语素文字是指字位(Grapheme,差不多等于前文所提的字符Character)能代表一个词或语素,反例如拉丁文字的字位即字母,字母是表音而不表意的。由于目前所有已知的语素文字都有表音成分,因此也叫意音文字。

在英语里,汉字被称为Chinese character,或者Ideograph及Pictogram,但都不够精确。拉丁语的Sinogram也许比较精确,但它太少使用。Unicode最初采用了Ideograph(表意文字)作为术语,已经在标准中普遍使用,因此无法放弃或取代。

一些问题:

Ideogram和Ideograph有什么区别?这两个词在概念上没有区别。本文在谈论文字类型时采用-gram,而在Unicode的语境里采用-graph。本文建议在Unicode的语境里仅采用-graph。另外的,Ideograph的形容词形式是Ideographic。

可以用表意文字Ideograph指代汉字吗?除了汉字使用的字符(Characters of the Han script),表意文字Ideograph也包括契丹小字,女书和西夏文。

 

Q&A

所有汉字都在CJK里吗?对于常用汉字而言,除了〇之外,基本在第一次都纳入了CJK里。〇被认定为数字符号。Biangbiang面的biang在扩展区G里。

为什么不以组合形式显示汉字(动态组字)?例如用打字机输出的谚文就是组合显示的,在早期的计算机系统,以及古谚文的显示方法也是如此。它最大的问题是,不好看。下图上半部分就是组合形式显示的谚文。

女口   止匕   酉鬼   言青   扌巨   糸色

对于汉字来说还不仅仅是好不好看的问题。谚文仅需要简简单单上下左右组合,而汉字有各种包围和重叠结构。例如,“巫”字计算机就很难组合。

Unicode使用了表意文字描述序列(Ideographic Description Sequence,IDS)来作为汉字结构描述语法。例如“相”字就可以描述为⿰木目。“巫”则是“⿻工从”或“⿻工⿰人人”。但其用于描述一个汉字的结构尚可,用来组字实在不行。

此外,Unicode发现,汉字远远用不完所有的代码点(code point),不如干脆直接编码。

知道一个字符的Unicode编码如何输入它?如果你使用的是微软拼音的话,在中文模式下先输入VUC(v是进入特殊模式,uc是Unicode缩写),然后在主键盘上直接输入该字符的Unicode编码(大小写不敏感)。或者直接在搜索引擎上输入“u+编码”,或许更快一点。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3